from craw_data import (
    getHTML
)
from lxml import etree

def basicInfoHTMLProcess(url):
    # 拿到html文档的内容
    html = getHTML(url)
    # print(html)
    # 拿到对应文档的选择器
    selector = etree.HTML(html)
    # 从HTML文档中选择所有<title>标签的文本内容。这里的 // 表示从文档的根开始查找，而 title 表示选择所有<title>标签。/text() 表示选择标签的文本内容。
    title = selector.xpath('//title/text()')[0]
    # HTML文档中选择所有<div class="wrap mt10 nav-bar">的标签下的a标签的文本内容
    category = selector.xpath('//div[@class="wrap mt10 nav-bar"]/a/text()')
    # HTML文档中选择所有<div class="jib-articl-con jib-lh-articl">的标签下的p标签的文本内容
    desc = selector.xpath('//div[@class="jib-articl-con jib-lh-articl"]/p/text()')
    # HTML文档中选择所有<div class="mt20 articl-know">的标签下的p标签
    ps = selector.xpath('//div[@class="mt20 articl-know"]/p')
    print(title)
    print(category)
    print(desc)
    print("="*20)
    for p in ps:
        # 清除不需要的空格或者换行
        info = p.xpath('string(.)').replace('\r','').replace('\n','').replace('\xa0', '').replace('   ', '').replace('\t','')
        print(info)

basicInfoHTMLProcess("http://jib.xywy.com/il_sii/gaishu/1.htm")